WinoGrande ist ein großer Datensatz zur Bewertung der Fähigkeit von NLP-Systemen zu vernünftigen Schlussfolgerungen. Der Datensatz besteht aus insgesamt 44.000 Problemstellungen, die vom Sprachmodell gelöst werden müssen. Inspiriert ist WinoGrande von der Winograd Schema Challenge. WinoGrande besteht aber aus wesentlich mehr Problemstellungen und ist für NLP-Systeme schwieriger zu lösen. Entwickelt wurde der Datensatz vom Allen Institute for Artificial Intelligence und der University of Washington.
WinoGrande ist der Name eines großen Datensatzes zur Bewertung der Fähigkeit von NLP-Systemen zu vernünftigen Schlussfolgerungen. Mit WinoGrande lässt sich – etwas banal ausgedrückt – der „gesunde Menschenverstand“ von Sprachmodellen prüfen. Man bekommt einen Eindruck davon, was die Maschinen beim Lesen von Texten wirklich „verstehen“. Der WinoGrande-Datensatz besteht aus insgesamt 44.000 Problemstellungen, die vom NLP-System gelöst werden müssen. Es handelt sich jeweils um zwei Teilsätze, bei denen im zweiten Teilsatz eine Lücke mit dem richtigen Wort in Bezug auf den ersten Teilsatz gefüllt werden muss.
Inspiriert ist der WinoGrande-Datensatz von der 2011 entwickelten Winograd Schema Challenge (WSC). WinoGrande besteht aber aus wesentlich mehr Problemstellungen und ist für NLP-Systeme schwieriger zu lösen. Entwickelt wurde der Datensatz im Jahr 2019 von den Wissenschaftlern Keisuke Sakaguchi, Ronan Le Bras, Chandra Bhagavatula und Yejin Choi des Allen Institute for Artificial Intelligence und der University of Washington. Die Zielsetzung war es, eine größere Anzahl angepasster Problemstellungen zu entwickeln, die NLP-Systeme vor größere Probleme als die Winograd Schema Challenge stellen. Der Datensatz wurde in einem Crowdsourcing-Ansatz erstellt. Die Problemstellungen wurden anschließend von einem Algorithmus zur Bias-Reduktion geprüft und gefiltert.
Im Vergleich zur Winograd Schema Challenge erzielen NLP-Systeme beim WinoGrande-Benchmark deutlich niedrigere Erfolgsquoten. Sie liegen in einem Bereich zwischen circa 59 und 79 Prozent. Menschen lösen die Problemstellungen mit einer Erfolgsquote von 94 Prozent. Auf den Internetseiten des Allen Institute for Artificial Intelligence ist ein Leaderboard mit Ergebnissen verschiedener Sprachmodelle veröffentlicht.
Grundlegende Informationen zur Winograd Schema Challenge (WSC)
WinoGrande baut auf der Winograd Schema Challenge auf. Die Winograd Schema Challenge wurde von Levesque, Davis und Morgenstern im Jahr 2011 entwickelt. Es handelt sich um einen Benchmark zur Bewertung der Fähigkeiten zu vernünftigen Schlussfolgerungen (Commonsense Reasoning) von NLP-Systemen. Die WSC sollte ein Fortschritt zum Turing-Test darstellen. Benannt ist die Winograd Schema Challenge nach dem Professor für Computerwissenschaften Terry Winograd der Stanford University. Die Winograd Schema Challenge besteht aus 273 manuell von Fachkräften erstellten Pronomen-Zuordnungsproblemstellungen, die von statistischen Modellen über reines Assoziieren von Wörtern nicht zu lösen sind. Das Lösen der Problemstellungen erfordert ein tieferes Verständnis der Semantik und die Fähigkeit zu logischen Schlussfolgerungen. Ein Beispiel für eine solche Problemstellung ist:
Die Trophäe passt nicht in die braune Tasche, weil sie zu groß/klein ist.
Das NLP-System muss „groß“ und „klein“ jeweils dem richtigen Wort zuordnen. In diesem Fall gehört „groß“ zu „Trophäe“ und „klein“ zu „Tasche“.
Motivation zur Entwicklung von WinoGrande
Auch wenn die Künstliche Intelligenz und die Verarbeitung von natürlicher Sprache in den vergangenen Jahren enorme Fortschritte gemacht haben, stellt die Fähigkeit zu vernünftigen Schlussfolgerungen für ein NLP-System nach wie vor eine Herausforderung dar. Über Benchmarks soll diese Fähigkeit der NLP-Systeme bewertbar werden. Aktuelle Sprachmodelle erzielen in Benchmarks wie der Winograd Schema Challenge mittlerweile Erfolgsquoten von über 90 Prozent. Letztlich ist aber nicht wirklich klar, was die Maschinen von dem, was sie lesen, wirklich „verstehen“.
Es liegt die Vermutung nahe, dass die hohen Erfolgsquoten auch durch falsche Untersuchungsmethoden oder versteckte Abhängigkeiten in den Fragen zustande kommen. Um der Fragestellung nachzugehen, ob die Sprachmodelle tatsächlich so gute Fähigkeiten zu vernünftigen Schlussfolgerungen besitzen oder ob die Ergebnisse von unbeabsichtigtem Bias beeinflusst sind, wurde WinoGrande entwickelt. WinoGrande besteht aus wesentlich mehr Problemstellungen und soll tatsächliche Common-Sense-Reasoning-Fähigkeiten zum Lösen der Fragestellungen erfordern.
Erstellung und Inhalt des WinoGrande-Datensatzes
Um die hohe Zahl von 44.000 Problemstellungen zu erstellen, verfolgt WinoGrande einen Crowdsourcing-Ansatz. Die Fragestellungen in Form von Sätzen wurden von Crowdworkern in Amazon Mechanical Turk (AMT) erstellt. Anschließend wurden sie an drei weitere Crowdworker übergeben, die sie nach bestimmten Kriterien prüften und versuchten, sie zu beantworten. Kriterien waren, dass die Lösung der Problemstellung nicht durch einfache Wortassoziation über den lokalen Kontext abgeleitet werden kann, die Problemstellung eindeutig ist und sie von mindestens zwei Arbeitern korrekt beantwortet werden kann. Die Fragestellungen, die alle Kriterien erfüllten, wurden anschließend mithilfe eines Algorithmus (AFLITE) gefiltert und systematisch Bias-reduziert. Dies soll verhindern, dass Sprachmodelle über enthaltene unbeabsichtigte Datenmuster oder über Korrelationen die Problemstellungen lösen.
Stand: 08.12.2025
Es ist für uns eine Selbstverständlichkeit, dass wir verantwortungsvoll mit Ihren personenbezogenen Daten umgehen. Sofern wir personenbezogene Daten von Ihnen erheben, verarbeiten wir diese unter Beachtung der geltenden Datenschutzvorschriften. Detaillierte Informationen finden Sie in unserer Datenschutzerklärung.
Einwilligung in die Verwendung von Daten zu Werbezwecken
Ich bin damit einverstanden, dass die Vogel IT-Medien GmbH, Max-Josef-Metzger-Straße 21, 86157 Augsburg, einschließlich aller mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen (im weiteren: Vogel Communications Group) meine E-Mail-Adresse für die Zusendung von Newslettern und Werbung nutzt. Auflistungen der jeweils zugehörigen Unternehmen können hier abgerufen werden.
Der Newsletterinhalt erstreckt sich dabei auf Produkte und Dienstleistungen aller zuvor genannten Unternehmen, darunter beispielsweise Fachzeitschriften und Fachbücher, Veranstaltungen und Messen sowie veranstaltungsbezogene Produkte und Dienstleistungen, Print- und Digital-Mediaangebote und Services wie weitere (redaktionelle) Newsletter, Gewinnspiele, Lead-Kampagnen, Marktforschung im Online- und Offline-Bereich, fachspezifische Webportale und E-Learning-Angebote. Wenn auch meine persönliche Telefonnummer erhoben wurde, darf diese für die Unterbreitung von Angeboten der vorgenannten Produkte und Dienstleistungen der vorgenannten Unternehmen und Marktforschung genutzt werden.
Meine Einwilligung umfasst zudem die Verarbeitung meiner E-Mail-Adresse und Telefonnummer für den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern wie z.B. LinkedIN, Google und Meta. Hierfür darf die Vogel Communications Group die genannten Daten gehasht an Werbepartner übermitteln, die diese Daten dann nutzen, um feststellen zu können, ob ich ebenfalls Mitglied auf den besagten Werbepartnerportalen bin. Die Vogel Communications Group nutzt diese Funktion zu Zwecken des Retargeting (Upselling, Crossselling und Kundenbindung), der Generierung von sog. Lookalike Audiences zur Neukundengewinnung und als Ausschlussgrundlage für laufende Werbekampagnen. Weitere Informationen kann ich dem Abschnitt „Datenabgleich zu Marketingzwecken“ in der Datenschutzerklärung entnehmen.
Falls ich im Internet auf Portalen der Vogel Communications Group einschließlich deren mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen geschützte Inhalte abrufe, muss ich mich mit weiteren Daten für den Zugang zu diesen Inhalten registrieren. Im Gegenzug für diesen gebührenlosen Zugang zu redaktionellen Inhalten dürfen meine Daten im Sinne dieser Einwilligung für die hier genannten Zwecke verwendet werden. Dies gilt nicht für den Datenabgleich zu Marketingzwecken.
Recht auf Widerruf
Mir ist bewusst, dass ich diese Einwilligung jederzeit für die Zukunft widerrufen kann. Durch meinen Widerruf wird die Rechtmäßigkeit der aufgrund meiner Einwilligung bis zum Widerruf erfolgten Verarbeitung nicht berührt. Um meinen Widerruf zu erklären, kann ich als eine Möglichkeit das unter https://contact.vogel.de abrufbare Kontaktformular nutzen. Sofern ich einzelne von mir abonnierte Newsletter nicht mehr erhalten möchte, kann ich darüber hinaus auch den am Ende eines Newsletters eingebundenen Abmeldelink anklicken. Weitere Informationen zu meinem Widerrufsrecht und dessen Ausübung sowie zu den Folgen meines Widerrufs finde ich in der Datenschutzerklärung.
Ein Beispiel für eine Fragestellung im WinoGrande-Stil ist:
Rebecca ist schlanker als Carrie, deshalb begann ____ sich Gedanken über Kalorien und Diät zu machen.
In diesem Fall muss das Sprachmodell die Wortlücke mit der richtigen Antwort „Carrie“ füllen.
Ergebnisse des WinoGrande-Benchmarks
Beim Benchmark mit dem WinoGrande-Datensatz erzielten moderne Sprachmodelle im Gegensatz zum WSC-Benchmark eine deutlich geringere Leistung. Sie lag zwischen circa 59 und 79 Prozent. Menschen erreichen eine Erfolgsquote von 94 Prozent. Die verminderte Leistung beim WinoGrande-Benchmark lässt vermuten, dass die hohen Erfolgsquoten beim WSC-Benchmark nicht auf reinen Common-Sense-Reasoning-Fähigkeiten der Sprachmodelle basierten. Anscheinend wurden auch unbeabsichtigte Datenmuster oder Korrelationen in den WSC-Fragestellungen von den Sprachmodellen genutzt, um die richtigen Antworten zu finden. Die guten Ergebnisse im WSC-Test schienen teils übertrieben gewesen zu sein.